检索结果

Select

1. 通过标点恢复提高机器同传效果

陈玉娜, 史晓东

计算机应用 2020, 40 (4): 972-977. DOI: 10.11772/j.issn.1001-9081.2019101711

摘要（588）

PDF （1373KB）（482）

在机器同传（MSI）流水线系统中，将自动语音识别（ASR）的输出直接输入神经机器翻译（NMT）中会产生语义不完整问题，为解决该问题，提出基于BERT（Bidirectional Encoder Representation from Transformers）和Focal Loss的模型。首先，将ASR系统生成的几个片段缓存并组成一个词串；然后，使用基于BERT的序列标注模型恢复该词串的标点符号，并利用Focal Loss作为模型训练过程中的损失函数来缓解无标点样本比有标点样本多的类别不平衡问题；最后，将标点恢复后的词串输入NMT中。在英-德和汉-英翻译上的实验结果表明，在翻译质量上，使用提出的标点恢复模型的MSI，比将ASR输出直接输入NMT的MSI分别提高了8.19 BLEU和4.24 BLEU，比使用基于注意力机制的双向循环神经网络标点恢复模型的MSI分别提高了2.28 BLEU和3.66 BLEU。因此所提模型可以有效应用于MSI中。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于HTK的语音识别的并行化研究与实现

刘勇进史晓东

计算机应用

摘要（1649）

PDF （674KB）（801）

详细地分析了语音识别的过程，给出了相应的算法描述，并分析了语音识别并行化的可能性。将并行计算的思想应用于语音识别的算法中，使用多线程技术，并引入避免竞争条件的机制，在多核计算机上并行地计算HMM模型节点的似然率，从而得到语音识别的并行化算法。分析了该并行化算法的性能，同时在语音识别工具包HTK 3.4上实现了这种并行化算法。基于WSJ0语料库的实验结果表明该并行化算法在不影响识别结果的前提下能够有效地提高语音识别的实时性能。

相关文章 | 多维度评价

Select

3. 一个统计与规则相结合的中文命名实体识别系统

向晓雯;史晓东;曾华琳

计算机应用 2005, 25 (10): 2404-2406.

摘要（1863）

PDF （585KB）（3120）

介绍了一个中文命名实体识别系统，该系统采用了统计与规则相结合的方法。整个识别过程主要分成两个步骤，首先使用隐马尔可夫模型进行词性标注，然后利用具有优先级别的匹配规则对第一步的结果进行修正和转换。同时，系统还对上下文相关的命名实体识别作了初步的尝试。在863组织的命名实体识别评测中，系统的准确率、召回率和F值分别达到了81.93%，78.20%，80.02%。

相关文章 | 多维度评价

Select

4. 一种基于提取上下文信息的分词算法

曾华琳，李堂秋，史晓东

计算机应用 2005, 25 (09): 2025-2027. DOI: 10.3724/SP.J.1087.2005.02025

摘要（697）

PDF （183KB）（1474）

汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。